花費 5 ms
【基礎知識十六】強化學習

一、任務與獎賞 我們執行某個操作a時,僅能得到一個當前的反饋r(可以假設服從某種分布),這個過程抽象出來就是“強化學習”。 強化學習任務通常用馬爾可夫決策過程MDP來描述: 強化學習任務的四 ...

Mon Sep 18 00:08:00 CST 2017 0 1921

 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM